クラスメソッド データアナリティクス通信(AWSデータ分析編) – 2024年10月号
Amazon Redshift Provisioned / Redshift Serverless
新機能・アップデート
2024/09/03 - AWS が Amazon Redshift Data API でのセッション再利用を発表
Amazon Redshift Data APIにセッション再利用機能が追加されました。Data API のセッション再利用により、クエリ実行から別のクエリ実行までセッションのコンテキストを保持できるため、同じクラスタへの繰り返されるクエリでの接続設定のレイテンシーを短縮できます。
セッション再利用により、変数や一時テーブルなどのオブジェクトでセッションコンテキストを利用できます。たしかに、これは便利かもしれない。
2024/09/11 - Amazon Redshift、Zero-ETL 統合でのテーブルのソートキーの変更のサポートを開始
Amazon Redshift now supports altering sort keys on tables in zero-ETL integration
Amazon Redshift では、Zero-ETL 統合によってレプリケートされたテーブルのソートキーを変更できるようになりました。Zero-ETL テーブルのソートキーを AUTO に設定して、Amazon Redshift がワークロードを監視し、変化するワークロードとデータパターンに基づいて自動的にソートキーを設定できます。Zero-ETL 統合でテーブルのソートキーを AUTOにせってするのは相性が良さそう。
2024/09/12 - Amazon RDS for MySQL と Amazon Redshift のゼロ ETL 統合が一般利用可能に
Amazon RDS for MySQL と Amazon Redshift のゼロ ETL 統合の一般提供が開始されました。Amazon RDS for MySQL にデータが書き込まれてから即座に、データは Amazon Redshift にレプリケートされます。
2024/09/13 - Amazon Redshift Serverless は、1024 Redshift プロセッシングユニットというより高い基本容量のサポートを開始
Amazon Redshift Serverless では、基本容量の最大が 512 RPU から 1024 RPU を設定できるようになりました。基本容量が新たに 1024 RPU に増えたことで、非常に複雑なワークロードにもより柔軟に対応できるようになり、コストパフォーマンス要件に基づいてデータのロードとクエリを高速化できます。
Amazon Redshift Serverless は基本容量が大きいため、複雑で長いクエリ、多数の列、大量のメモリを必要とする結合や集計を含むクエリ、大量のデータをスキャンするデータレイククエリ、データウェアハウスへの大規模なデータセットの取り込みなどのユースケースに対応するワークロードのパフォーマンスを向上させることができます。
基本容量の最大が 1024 RPU になり、Amazon Redshift ServerlessのRAIS (Redshift AI-powered Intelligent Scaling)のGAが待ち遠しいです。
2024/09/16 - Amazon Redshift 用 Amazon Q 生成 SQL の一般提供開始を発表
Amazon Redshift は、クエリエディタV2で Amazon Q 生成 SQL の一般提供開始を発表しました。ユーザーが自然言語でクエリを表現すると Amazon Q の生成 SQL が SQL コードの推奨を返し、クエリの作成が簡単になり、生産性が向上します。
2024/09/16 - Amazon Redshift がZero-ETL 統合での拡張 VPC ルーティングウェアハウスのサポートを開始
Amazon Redshift Zero-ETL 統合は、拡張 VPC ルーティング (EVR) で構成された Redshift クラスターとサーバーレスワークグループをサポートするようになりました。Amazon Redshift 拡張 VPC ルーティングを使用すると、Amazon Redshift は、ウェアハウスとデータリポジトリ間のすべての COPY および UNLOAD トラフィックが Amazon VPC サービスに基づく仮想プライベートクラウド (VPC) を通過するように強制します。
2024/09/30 - Amazon Redshift announces mTLS support for Amazon MSK
Amazon Redshift Provisioned ClusterまたはAmazon Redshift Serverless workgroupと Amazon Managed Streaming for Apache Kafka (MSK) クラスターまたはサーバーレス間の相互トランスポート層セキュリティ (mTLS) 認証を追加することで、認証方法が拡張されます。mTLS認証は、Amazon Redshift パッチ 184 リリースからご利用いただけます。
Amazon Athena
APIの変更点
2024/09/23 - Amazon Athena - 5 updated api methods
Amazon Athena - 5 updated methods
List/Get/Update/Delete/CreateDataCatalog が AWS Glue 接続と統合されるようになりました。ユーザーは Athena を介して Glue 接続を作成したり、Glue 接続を使用して Athena フェデレーション パラメータを定義したりできます。
Amazon Glue
新機能・アップデート
2024/09/12 - AWS Glue データカタログが Apache Iceberg テーブルのストレージ最適化をサポート
AWS Glue データカタログは、不要になったデータファイルを自動的に削除することで、Apache Iceberg テーブルのストレージ最適化をサポートするようになりました。従来はメンテナンスコマンドOPTIMIZE相当の機能が提供されていましたが、今回のアップデートでメンテナンスコマンドVACUUM相当の機能がTable optimaizationに追加されました。
Iceberg テーブルに書き込むたびに、テーブルの新しいスナップショット、つまりバージョンが作成されます。さらに、Iceberg テーブルへの書き込み中に障害が発生すると、スナップショットで参照されない「孤立ファイル」と呼ばれるデータファイルが作成され、ストレージコストがさらに増加します。AWS Glue カタログの新しいストレージ最適化と自動圧縮により、メタデータのオーバーヘッドを削減し、ストレージコストを抑え、クエリパフォーマンスを向上させることができます。
これまでは、メンテナンスコマンドVACUUM相当のメンテナンスをするには、SpackSQLで実行するか、Athena経由でVACUUM実行する必要がありました。これでIcebergテーブルのメンテナンスはGlueに済むようになりました。この機能を待ち望んでいた方は少なくないでしょう。
2024/09/03 - AWS Glue でジョブキューイングが使用可能に
AWS Glue ジョブのジョブキューを追加され、ジョブキューイングが使用可能になりました。この新機能により、アカウントレベルのクォータや制限を管理しなくても AWS Glue ジョブの実行を送信できます。
従来は、サービスクオータに同時実行しているジョブ数に達するとエラーになっていました。大量に並列分散でETLジョブを実行している場合に欠かせないアップデートです。
APIの変更点
2024/09/12 - AWS Glue - 6 updated api methods
AWS Glue は、Apache Iceberg テーブル用の 2 つの新しいオプティマイザー (スナップショット保持と孤立ファイルの削除) を導入します。これらのオプティマイザーを有効にし、設定をカスタマイズして、特定の要件に基づいて Iceberg テーブルで毎日のメンテナンスタスクを実行できます。
2024/09/19 - AWS Glue - 1 new api methods
この変更は、TestConnection API SDK モデルをリリースするためのものです。
2024/09/23 - AWS Glue - 4 updated api methods
Glue 接続に AthenaProperties パラメータが追加され、Athena が Glue 接続にサービス固有のプロパティを保存できるようになりました。
Amazon QuickSight
新機能・アップデート
2024/09/13 - Amazon QuickSight で Google BigQuery コネクタのダイレクトクエリのサポートを開始
Amazon QuickSight は Google BigQuery データソースのダイレクトクエリ機能の一般提供を発表しました。従来は、BigQuery のデータをSPICE にデータをキャッシュした後、SPICEからデータを取得する必要がありました。ダイレクトクエリモードでは、BigQuery データに対して直接ほぼリアルタイムでクエリを実行できます。この機能には、データセットに対してインポートできる行数やデータサイズの制限はありません。最高じゃないですか。
2024/09/30 - Amazon Q in QuickSight now generates data stories that are personalized to users
QuickSight は、Amazon Q in QuickSight の機能であるデータストーリーが一般利用開始になりました。ユーザーが視覚的に魅力的なドキュメントやプレゼンテーションを生成して、洞察を提供し、重要な発見を強調し、実行可能な次のステップを推奨するのに役立ちます。データストーリーにパーソナライゼーションが追加されたことで、生成されたストーリーはユーザーに合わせて調整され、従業員の所在地と職務を活用して、ユーザーの組織に固有の解説を提供します。
日本語サポートについては明確な言及がないため、現時点では日本語をサポートしているかどうかは不明です。
APIの変更点
2024/09/19 - Amazon QuickSight - 1 new 9 updated api methods
Amazon QuickSight - 1 new 9 updated methods
QuickSight:
-
追加された新しい API - ListFoldersForResource.
-
コミット モードでは、作成者向けの複数選択コントロールの [適用] ボタンの表示構成が追加されます。
2024/09/27 - Amazon QuickSight - 2 new api methods
Amazon QuickSight - 2 new methods
QuickSight データ ストーリーにパーソナライゼーションを追加します。管理者は、QuickSight 設定を通じてパーソナライゼーションを有効または無効にできます。
Amazon EMR / EMR Serverless
APIの変更点
2024/09/12 - Amazon EMR - 4 updated api methods
Amazon EMR - 4 updated methods
実行中の InstanceFleet クラスターで ODCR オプション、割り当て戦略、および InstanceTypeConfigs を変更できるように API を更新します。
2024/09/23 - EMR Serverless - 6 updated api methods
EMR Serverless - 6 updated methods
このリリースでは、アプリケーション レベルでのジョブの同時実行とキューイング構成のサポートが追加されました。
Amazon Kinesis
新機能・アップデート
2024/09/25 - Amazon Kinesis Data Streams announces support for Attribute-Based Access Control (ABAC)
Amazon Kinesis Data Streams は、ストリームタグを使用した属性ベースのアクセス制御 (ABAC: attribute-based access control) のサポートを発表しました。
Kinesis Data Streams の ABAC サポートにより、ユーザーまたはプロジェクトが追加、削除、または更新されたときにポリシーを更新することなく、開発者にきめ細かなアクセス権を簡単に付与できます。Kinesis Data Streams の ABAC サポートにより、IAM プリンシパルのタグがデータストリームのタグと一致する場合に、IAM ポリシーを使用して特定の Kinesis Data Streams API アクションを許可または拒否できます。
APIの変更点
2024/09/05 - Amazon Kinesis Analytics - 8 updated api methods
Amazon Kinesis Analytics - 8 updated methods
Managed Service for Apache FlinkによるFlink 1.20 のサポート。
Amazon MSK
新機能・アップデート
2024/09/10 - Amazon MSK enhances cross-cluster replication with support for identical topic names
Amazon MSK Replicator は、Amazon Managed Streaming for Apache Kafka ( Amazon MSK ) クラスター間でストリーミングデータをレプリケートしながら元の Kafka トピック名を保持できる新しい設定をサポートするようになりました。
新しい設定では、レプリケーション中にトピック名を保持しながら、サードパーティ製またはオープンソースのツールを使用してレプリケーションを行う際に発生する無限レプリケーションループのリスクを自動的に回避できます。アクティブ/パッシブ クラスター アーキテクチャを設定して、リージョンの復元力のあるストリーミング アプリケーションを構築し、1 つのクラスターがライブ トラフィックを処理し、別のクラスターがスタンバイとして機能する場合、新しい構成によってフェイルオーバー プロセスも効率化されます。トピック名はそのまま残るため、アプリケーションは再構成を必要とせずにスタンバイ クラスターにシームレスにフェイルオーバーできます。
Amazon DataZone
APIの変更点
2024/09/03 - Amazon DataZone - 15 updated api methods
Amazon DataZone - 15 updated methods
サブスクリプション要求を受け入れるときに、提供されたアセット フィルターに基づいて、サブスクライバーがアクセスできるデータ アセットのサブセットをデータ パブリッシャーが指定できるようにするためのサポートを追加します。
Amazon OpenSearch Service
新機能・アップデート
2024/09/18 - Amazon OpenSearch Service now supports i4g & i4i instances
Amazon OpenSearch Service は、最新世代のストレージ最適化インスタンス i4g および i4i のサポートを開始しました。これらのインスタンスには、高い I/O パフォーマンス、低レイテンシー、常時暗号化によるセキュリティを提供する AWS Nitro SSD ストレージが搭載されています。
i4gインスタンスは、同等の x86 ベースのストレージ最適化インスタンスと比較して、ストレージ最適化インスタンスの最高のコンピューティング価格パフォーマンスを提供し、Graviton ベースのストレージインスタンスの TB あたりの最高のストレージパフォーマンスを実現します。i4g インスタンスは、すべての OpenSearch バージョンと Elasticsearch (オープンソース) バージョン 7.9 および 7.10 をサポートしています。
I4i インスタンスは、新しいサイズである 128 vCPU と 1,024 GiB のメモリを提供します。これは、最大の i3 インスタンスの 2 倍のサイズです。
最後に
昨年のre:Inventで発表になったAmazon Redshiftに対するZero-ETL統合は、全て一般提供開始(GA)となりました。Zero-ETL統合は、「Redshiftの無停止」という制約がなくデータがRedshiftのストレージ(正確にはRMS)に常に連携されます。更にその連携先であるテーブルのソートキーが無停止で自動/手動でチューニングできる事によって、パフォーマンスを維持しつつ可用性を維持できる地味ですが素晴らしいアップデートです。
Amazon QuickSightのGoogle BigQueryコネクタサポートにより、異なるデータソース間の連携が強化され、より包括的なデータ分析が可能になります。
さらにアナリティクスサービスのAmazon Q関連サービスのGAも徐々に進み、自然言語で分析や示唆まで得られるようになりました。日本語対応になるのを願うばかりです。
P.S. 札幌も涼しくなり、re:Inventのセッションの先行予約ももうすぐ始まる季節です。先月も書きましたが、Athenaさんのアップデートの便りがなく寂しい毎日です。ドカンと大きなアップデートが来ることをお待ちしています。